Agenda
Introducción a la Estadística y Ciencia de Datos
Análisis de datos reproducible
R y RStudio
Aspectos elementales de R y Rstudio
La Ciencia de Datos es una disciplina que se dedica al estudio y aplicación de técnicas diversas (estadística, informática, etc.) para convertir datos crudos en información y conocimiento.
En este curso aprenderemos a hacer esto de manera ordenada.
Este es un curso introductorio con énfasis en pensamiento estadístico.
Ciencia de Datos en Salud (Health Data Science en inglés) es la ciencia y el arte de generar soluciones basadas en datos a través de la comprensión de problemas de salud complejos del mundo real, empleando el pensamiento crítico y el análisis para derivar conocimiento de los (grandes) datos.1
Agenda
Introducción a la Estadística y Ciencia de Datos
Análisis de datos reproducible
R y RStudio
Aspectos elementales de R y Rstudio
¿Qué significa que un análisis de datos es “reproducible”?
¿Las tablas y figuras se pueden reproducir del código y datos?
¿El código realmenet hace lo que quieres que haga?
¿Es claro por qué el código hace lo que hace?
¿Puede el código ser usado con otros datos?
¿Puedes extender el código a otros usos?
Flujo de trabajo reproducible
Scriptabilidad
Programación literaria (código, narrativa, salida en un solo lugar) Markdown
Versión de control Git / Github
Scriptabilidad y Programación literaria.Agenda
Introducción a la Estadística y Ciencia de Datos
Análisis de datos reproducible
R y RStudio
Aspectos elementales de R y Rstudio
R es un lenguaje de programación estadística de código abierto.
R también es un entorno para computación estadística y gráfica.
Está potenciado con paquetes.
Objeto:Cualquier abstracción en R. Los datos son objetos en R.
Función:Código capaz de realizar una acción específica con los datos. También es un objeto: un objeto que actúa sobre otros objetos.
Paquetes:Library en inglés. Conjunto de funciones que realizan acciones a menudo relacionadas en R.
Paquetes de R base:Conjunto de paquetes instalados por defecto en R.
Paquetes de R tidy:Conjunto de paquetes que siguen el estilo tidy en R.
Los paquetes son las unidades fundamentales del código reproducible en R.
Al 13 de junio de 2022, hay 18 560 paquetes disponibles.
¡Trabajaremos con un pequeño (pero importante) conjunto de estos!
Cada paquete contiene una o más funciones que ejecutan tareas.
¡Hay paquetes de todo tipo y para todos los gustos!
Tidyverse es una colección grande de paquetes de R diseñados para hacer ciencia de datos: Es un metapaquete.
R, como todo lenguaje, tiene varios dialectos.
Dos dialectos predominan: R base y R tidy.
R tidy se basa en la filosofía de tidyverse.
Usaremos este enfoque predominantemente y R base cuando no tenga remplazo o sea más sencillo usarlo.
Agenda
Introducción a la Estadística y Ciencia de Datos
Análisis de datos reproducible
R y RStudio
Aspectos elementales de R y Rstudio
Si aún no ha instalado R y RStudio, revise el tutorial de instalación de R que hemos preparado para el curso:
Pause el video, instale y vuelva cuando todo esté listo.
Ingrese al siguiente enlace https://cloud.r-project.org/ y descargue R.
Ingrese al siguiente enlace https://www.rstudio.com/products/rstudio/download/#download y descargue RStudio.
¿Es usuario de MS Windows?
¿Es usuario de Mac o Linux?
10:00
El código se escribe en el Script, pero no se imprime.
Los resultados se imprimen en la consola.
Aunque es útil usar la consola, es preferible usar herramientas de programación literaria:
rmarkdown y quarto permiten a los usuarios de R escribir su código y prosa en documentos computacionales reproducibles.
Por lo general, nos referimos a documentos R Markdown con la extensión .Rmd y a los documentos Quarto con la extensión .qmd.
versión mejorada de RMarkdwon.
Herramientas de programación literaria:
Útiles para alcanzar reproducibilidad.
También muy útiles para diversas actividades académicas:
Presentaciones académicas
Artículos científicos
Diseño de blogs, web u otra herramienta de difusión de conocimiento.
Cada ejercicio / reporte / proyecto / tarea / etc. será hecho en un documento R Markdown aumentado: Quarto.
Siempre te proporcionaremos una plantilla de documento Quarto para iniciar.
Las plantillas irán modificándose conforme avancemos el curso.
Las plantillas son simplemente eso, plantillas, para usarlas en su día a día no necesita pensar mucho en ellas ni entenderlas a detalle.
Yo entiendo menos del 20% de estas y aún así me sirven mucho para mi trabajo diario. ¡Sugiero comenzar haciendo lo mismo!
Tomemos un descanso de 5 minutos…
Estire las piernas …
Deje de ver las pantallas …
… cualquier , las del celular también.
05:00
@psotob91
https://github.com/psotob91
psotob@inkastats-academy.comFundamentos R para Ciencia de Datos en Salud - Sesión 1